An important challenge in vision-based action recognition is the embedding of spatiotemporal features with two or more heterogeneous modalities into a single feature. In this study, we propose a new 3D deformable transformer for action recognition with adaptive spatiotemporal receptive fields and a cross-modal learning scheme. The 3D deformable transformer consists of three attention modules: 3D deformability, local joint stride, and temporal stride attention. The two cross-modal tokens are input into the 3D deformable attention module to create a cross-attention token with a reflected spatiotemporal correlation. Local joint stride attention is applied to spatially combine attention and pose tokens. Temporal stride attention temporally reduces the number of input tokens in the attention module and supports temporal expression learning without the simultaneous use of all tokens. The deformable transformer iterates L times and combines the last cross-modal token for classification. The proposed 3D deformable transformer was tested on the NTU60, NTU120, FineGYM, and Penn Action datasets, and showed results better than or similar to pre-trained state-of-the-art methods even without a pre-training process. In addition, by visualizing important joints and correlations during action recognition through spatial joint and temporal stride attention, the possibility of achieving an explainable potential for action recognition is presented.
translated by 谷歌翻译
We propose a domain adaptation method, MoDA, which adapts a pretrained embodied agent to a new, noisy environment without ground-truth supervision. Map-based memory provides important contextual information for visual navigation, and exhibits unique spatial structure mainly composed of flat walls and rectangular obstacles. Our adaptation approach encourages the inherent regularities on the estimated maps to guide the agent to overcome the prevalent domain discrepancy in a novel environment. Specifically, we propose an efficient learning curriculum to handle the visual and dynamics corruptions in an online manner, self-supervised with pseudo clean maps generated by style transfer networks. Because the map-based representation provides spatial knowledge for the agent's policy, our formulation can deploy the pretrained policy networks from simulators in a new setting. We evaluate MoDA in various practical scenarios and show that our proposed method quickly enhances the agent's performance in downstream tasks including localization, mapping, exploration, and point-goal navigation.
translated by 谷歌翻译
最近的研究确定,大规模神经语言模型的学识渊博的令牌嵌入被退化为各向异性,形状狭窄。这种现象称为表示变性问题,促进了对模型性能产生负面影响的令牌嵌入之间的总体相似性的增加。尽管基于对问题触发的现象的观察,解决了变性问题的现有方法改善了文本生成的性能,但仍未探索变性问题背后的令牌嵌入的训练动力学。在这项研究中,我们分析了关注稀有令牌嵌入的令牌嵌入的训练动力学。我们证明,稀有令牌嵌入的梯度的特定部分是训练阶段中所有令牌变性问题的关键原因。基于分析,我们提出了一种称为自适应梯度门控(AGG)的新方法。 AGG通过对稀有令牌嵌入的梯度的特定部分进行门控来解决变性问题。语言建模,单词相似性和机器翻译任务的实验结果定量,定性地验证了AGG的有效性。
translated by 谷歌翻译
在本文中,我们描述了RTZR团队Voxceleb扬声器识别挑战2022(VOXSRC-22)的最高得分提交,在封闭的数据集中,扬声器验证轨道1.最高执行的系统是7型型号的融合,其中包含3种不同类型的类型模型体系结构。我们专注于培训模型以学习周期性信息。因此,所有型号均以4-6秒的镜头训练,每次发言。此外,我们采用了较大的保证金微调策略,该策略在我们的某些融合模型的先前挑战上表现出良好的表现。在评估过程中,我们应用了具有自适应对称归一化(AS-NORM)和矩阵得分平均值(MSA)的评分方法。最后,我们将模型与逻辑回归混合在一起,以融合所有受过训练的模型。最终提交在VOXSRC22测试集上实现了0.165 DCF和2.912%EER。
translated by 谷歌翻译
FP8是加速深度学习训练推论以外的16位格式的自然发展。在本文中,我们提出了一个8位浮点(FP8)二进制互换格式,该格式由两个编码组成-E4M3(4位指数和3位Mantissa)和E5M2(5位指数和2位指数和2位Mantissa)。尽管E5M2遵循IEEE 754惯例代表特殊值的惯例,但E4M3的动态范围是通过不代表无限态,只有一个Mantissa Bit-Pattern来扩展NAN。我们证明了FP8格式对各种图像和语言任务的功效,从而有效地匹配了16位培训课程所达到的质量。我们的研究涵盖了主要的现代神经网络体系结构 - CNN,RNN和基于变压器的模型,使所有超参数与16位基线训练课程保持不变。我们的培训实验包括大型,最多175b参数,语言模型。我们还检查了使用16位格式训练的语言模型的FP8训练后定量化,该格式抗拒固定点INT8量化。
translated by 谷歌翻译
我们提出了贝叶斯团队模仿学习者(BTIL),这是一种模仿学习算法,以模拟马尔可夫域中执行顺序任务的团队的行为。与现有的多机构模仿学习技术相反,BTIL明确模型并渗透了团队成员的时间变化的心理状态,从而从次优的团队合作的演示中实现了分散的团队政策的学习。此外,为了允许从小型数据集中进行样本和标签有效的政策学习,Btil采用了贝叶斯的角度,并且能够从半监督的示范中学习。我们证明并基准了BTIL在合成多代理任务以及人类代理团队工作的新型数据集上的性能。我们的实验表明,尽管团队成员(随时间变化且可能未对准)精神状态对其行为的影响,BTIL可以成功地从示威中学习团队政策。
translated by 谷歌翻译
最近的研究表明,基于梯度匹配的数据集综合或数据集凝结(DC),当应用于数据有效的学习任务时,方法可以实现最先进的性能。但是,在这项研究中,我们证明,当任务 - 核定信息构成培训数据集的重要组成部分时,现有的DC方法比随机选择方法的性能更糟。我们将其归因于缺乏与课堂梯度匹配策略所产生的类对比信号的参与。为了解决此问题,我们通过修改损耗函数以使DC方法有效地捕获类之间的差异来提出与对比度信号(DCC)的数据集凝结。此外,我们通过跟踪内核速度来分析训练动力学的新损失函数。此外,我们引入了双层热身策略,以稳定优化。我们的实验结果表明,尽管现有方法对细粒度的图像分类任务无效,但所提出的方法可以成功地为相同任务生成信息合成数据集。此外,我们证明所提出的方法甚至在基准数据集(例如SVHN,CIFAR-10和CIFAR-100)上也优于基准。最后,我们通过将其应用于持续学习任务来证明该方法的高度适用性。
translated by 谷歌翻译
最近,公平感知学习已经变得越来越重要,但我们注意到这些方法的大多数方法是通过假设完全注释的组标签的可用性来运作。我们强调,这种假设对于现实世界的应用是不现实的,因为组标签注释昂贵,并且可以与隐私问题冲突。在本文中,我们考虑了一种更实际的场景,称为算法公平,部分注释的组标签(Fair-PG)。我们观察到现有的公平方法,该方法仅使用与组标签的数据,表现比Vanilla培训更糟糕,这仅在Fair-PG下使用目标标签使用完整数据。为了解决这个问题,我们提出了一个简单的基于席信的群标签分配(CGL)策略,这些策略随时适用于任何公平意识的学习方法。我们的CGL利用辅助组分类器分配伪组标签,其中随机标签分配给低自信的样本。我们首先理论上表明,在公平标准方面,我们的方法设计优于香草伪标签策略。然后,我们经验展示了通过组合CGL和最先进的公平性的处理方法,与基线方法相比结合CGL和最先进的公平知识的处理方法,将目标精度和公平度量进行联合改善。此外,我们令人信服地表明,我们的CGL使得自然地将给定的组标记的数据集自然使用外部数据集仅适用于目标标签,以便可以提高精度和公平度量。我们将公开释放我们的实施,以便将来的研究重现我们的结果。
translated by 谷歌翻译
已知现代卷积神经网络(CNNS)在校准上对看不见的输入数据的校准方面是过度自由度。也就是说,它们比他们准确更自信。如果预测的概率用于下游决策,则这是不希望的。在考虑精度时,CNN也令人惊讶地对压缩技术(例如量化)令人惊讶地稳健,这旨在降低计算和内存成本。我们表明,这种稳健性可以通过现代CNN的校准行为来部分解释,并且可以通过过度步骤来改进。这是由于直观的结果:低置信度预测更容易改变后量化,而不太准确。高信任预测将更加准确,但更难以改变。因此,产生后量化精度的最小降低。这提出了神经网络设计中的潜在冲突:过度频率的校准可能导致量化更好的鲁棒性。我们在CIFAR-100和ImageNet数据集上执行将训练后量化的实验应用于各种CNN。
translated by 谷歌翻译
海洋充满了称为浮游植物的微型微藻,它们共同负责与陆地上所有植物的光合作用。我们预测他们对变暖海洋的反应的能力取决于了解浮游植物种群的动态如何受环境条件变化的影响。研究浮游植物动力学的一种强大技术是流式细胞仪,它测量每秒成千上万个单个细胞的光学特性。如今,海洋学家能够实时收集流动的细胞仪数据,从而为他们提供了精细的分辨率,可以分配数千公里的浮游植物分布。当前的挑战之一是了解这些大小规模的变化如何与环境条件(例如养分可用性,温度,光线和洋流)有关。在本文中,我们提出了多元回归模型的新型稀疏混合物,以估计随着时间的变化浮游植物的亚群,同时识别预测这些亚种群观察到的变化的特定环境协变量。我们使用合成数据和在2017年春季在东北太平洋进行的海洋学巡游中收集的合成数据和实际观察结果证明了该方法的有用性和解释性。
translated by 谷歌翻译